Gemma - 谷歌最新开放模型

Original renee创业狗 Renee 创业随笔

2024-10-09

Google 最近发布了 Gemma，并公开了其权重信息。

Gemma 是一个 open weight 模型。Open weight 指的是模型的权重（即模型训练完成后的参数）对外开放，用户可以直接使用这些权重来运行模型，进行推理或者微调（fine-tuning），对比其他开源模型，open source 则提供了更广泛的开放性。不仅模型权重是开放的，模型的代码、架构和训练过程也完全开源，用户可以自由访问和修改。

Gemma 可以通过 Vertex AI 或 Google Kubernetes Engine (GKE) 在 Google Cloud 上部署和训练 Gemma，利用文本生成推理和 Transformers 实现。

也可以使用 Google Colab，这是官方提供的代码：

https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/gemma/docs/lora_tuning.ipynb

与其他开放模型相比：

Gemma 提供两种规模：7B 参数和 2B 参数版本。

Gemma 7B 是一个非常强大的模型，旨在高效部署和开发，适用于消费级 GPU 和 TPU，在 7B 参数级别的模型中性能可与最佳模型相媲美，包括 Mistral 7B。
Gemma 2B 虽然在其大小范围内是一个有趣的模型，适用于 CPU 和设备端应用，但在排行榜上的得分并不如同类最优秀的模型，比如 Phi 2 高。

如果想直接尝试，可以在这里找到：https://huggingface.co/chat?model=google/gemma-7b-it

下面是用 Gemma 模型给我整理的关于 Gemma 性能的答案：

根据 Google 的官方宣布，Gemma 是一个新的大语言模型，能够完成诸如文本摘要、代码翻译和问题解答等任务。以下是对其性能的概述：

亮点:

高准确率:

在各种任务上取得先进的性能，包括文本摘要、代码翻译和问题解答。
比 PaLM 和 Megatron-Turing NLG 等前模型在 T5 和 QNLG 的评测上表现更好。

多模态能力:

可以处理文本、代码和图像，使它适用于各种任务。
可以翻译代码 между Python 和其他编程语言。

无需特定训练:

可以顺利执行任务，不需要大量的训练。
可以更有效地转移任务之间的知识。

挑战:

资源占用:

需要大量的计算资源，可能限制其可访问性。
Google 表示正在开发技术以提高其效率。

偏见:

可能从训练数据中继承偏差。
Google 致力于通过各种方法减轻偏差，例如使用公平性意识的训练技术。

总体:

Gemma 是一个强大的语言模型，具有令人印象深刻的性能，能够推动许多应用程序的进步。然而，其资源占用和潜在 bias 是需要解决的挑战。

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

Gemma - 谷歌最新开放模型

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

Gemma - 谷歌最新开放模型

您可能也对以下帖子感兴趣